Telegram Group & Telegram Channel
Какие вы знаете автоматические способы обнаружения выбросов в датасете?

Вот несколько подходов:

▪️Isolation forest

Метод базируется на алгоритме случайного леса. Его основная идея заключается в том, что выбросы легче изолировать от остальных данных, чем нормальные объекты. В процессе работы алгоритм строит деревья, случайно разделяя данные. Выбросы, как правило, изолируются за меньшее число шагов. В результате каждому объекту присваивается скор от 0 до 1, где значения, близкие к 1, указывают на возможные выбросы, а значения, близкие к 0, означают нормальные данные.

▪️Local Outlier Factor (LOF)

Этот метод оценивает, насколько плотно объект окружен своими соседями по сравнению с плотностью соседей вокруг других объектов. Если плотность точки значительно меньше, чем у её соседей, то точка считается выбросом.

▪️Расстояние Махаланобиса

Этот метод измеряет расстояние между точкой и средним значением распределения, принимая во внимание ковариацию данных. Точки, находящиеся далеко от центра распределения, но с учётом их корреляции с другими признаками, могут быть идентифицированы как выбросы.

#машинное_обучение
#данные



tg-me.com/ds_interview_lib/639
Create:
Last Update:

Какие вы знаете автоматические способы обнаружения выбросов в датасете?

Вот несколько подходов:

▪️Isolation forest

Метод базируется на алгоритме случайного леса. Его основная идея заключается в том, что выбросы легче изолировать от остальных данных, чем нормальные объекты. В процессе работы алгоритм строит деревья, случайно разделяя данные. Выбросы, как правило, изолируются за меньшее число шагов. В результате каждому объекту присваивается скор от 0 до 1, где значения, близкие к 1, указывают на возможные выбросы, а значения, близкие к 0, означают нормальные данные.

▪️Local Outlier Factor (LOF)

Этот метод оценивает, насколько плотно объект окружен своими соседями по сравнению с плотностью соседей вокруг других объектов. Если плотность точки значительно меньше, чем у её соседей, то точка считается выбросом.

▪️Расстояние Махаланобиса

Этот метод измеряет расстояние между точкой и средним значением распределения, принимая во внимание ковариацию данных. Точки, находящиеся далеко от центра распределения, но с учётом их корреляции с другими признаками, могут быть идентифицированы как выбросы.

#машинное_обучение
#данные

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/639

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

The Singapore stock market has alternated between positive and negative finishes through the last five trading days since the end of the two-day winning streak in which it had added more than a dozen points or 0.4 percent. The Straits Times Index now sits just above the 3,060-point plateau and it's likely to see a narrow trading range on Monday.

China’s stock markets are some of the largest in the world, with total market capitalization reaching RMB 79 trillion (US$12.2 trillion) in 2020. China’s stock markets are seen as a crucial tool for driving economic growth, in particular for financing the country’s rapidly growing high-tech sectors.Although traditionally closed off to overseas investors, China’s financial markets have gradually been loosening restrictions over the past couple of decades. At the same time, reforms have sought to make it easier for Chinese companies to list on onshore stock exchanges, and new programs have been launched in attempts to lure some of China’s most coveted overseas-listed companies back to the country.

Библиотека собеса по Data Science | вопросы с собеседований from it


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA